
OpenAI o1 self-play RL 技术路线推演
OpenAI o1 self-play RL 技术路线推演OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。
来自主题: AI技术研报
7725 点击 2024-09-21 14:20
OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。
Self-play RL 开启 AGI 下半场
进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。